北大阿里联手破局算力浪费难题,让单个GPU最多支持7个模型
每个 GPU 最多可以支持 7 个模型、10 个模型所需 GPU 数量从 1192 个减至 213 个、最终节约高达 82% 的 GPU 资源——这便是由北京大学团队和阿里巴巴团队提出的名为 Aegaeon 的多模型服务系统实现的效果。相关论文发表于由美国计算
每个 GPU 最多可以支持 7 个模型、10 个模型所需 GPU 数量从 1192 个减至 213 个、最终节约高达 82% 的 GPU 资源——这便是由北京大学团队和阿里巴巴团队提出的名为 Aegaeon 的多模型服务系统实现的效果。相关论文发表于由美国计算
现在的大模型市场,热闹得像个集市。就拿Hugging Face来说,上面挂着超过一百万个模型。大公司训的大模型,小团队微调的行业模型,应有尽有。